SEO教學第3課:搜尋引擎原理:網頁蒐集!

搜尋引擎的排名資料是即時的?還是事先處理好的?

經常有人問起為什麼搜尋結果與點擊進去的內容是不同的?其中一個原因就是因為搜尋引擎是在數天前就已經準備好各個關鍵字的排名結果,所以當你搜尋某個關鍵字的時候,搜尋引擎就可以立刻顯示出相關的網站排名

因此SEO行業外的朋友經常會有一種好奇就是,為什麼搜尋引擎搜尋速度那麼快?我搜尋自己電腦裡的資料都沒那麼快?原因就在於,搜尋引擎是事先處理好排名資訊的。

 

搜尋引擎蜘蛛的工作?

每一個網站跟搜尋引擎唯一的接觸點,就是搜尋引擎蜘蛛,也有人稱為搜尋機器人,蜘蛛主要工作就是來蒐集網站資料回去供,搜尋引擎分析後排名,因此蜘蛛只會下載頁面資料,不如江湖傳聞的集萬種功能於一身!蜘蛛只能下載網頁的原始碼,蜘蛛並不會對資料做任何處理,這是肯定的,別再被作弊SEO的公司騙了,說他們可以對蜘蛛如何!如何!那是不可能的事情~

 

搜尋引擎蜘蛛的工作分配?

搜尋引擎本身會有一套機制,來分配蜘蛛的工作,分配哪些工作呢?包含哪些網站要抓?哪些不抓?抓取時間多久?決定哪些網頁資料是複製的,不抓!哪些網站更新了,要抓!

 

搜尋引擎的更新機制

搜尋引擎不希望任何關鍵字的搜尋結果,1~10都呈現相同的的內容,因此當蜘蛛把所有資料蒐集回來的時候,第一步搜尋引擎就會先稟棄複製文章不予收錄,當搜尋引擎屢次拜訪該網站都發現文章與其他網站相同,則會降低該網站權重,到達一定數量後,則直接刪除該網站,因為該網站不具有價值。

 

搜尋引擎是定期收集網頁?還是增量收集網頁?

其實這兩個供作,目前搜尋引擎都持續執行著,但是工作方式有所區分:

 

定期收集網頁

每隔一段時間,搜尋引擎就會對整個網路上的網站從頭到尾收集一遍,但是全世界網頁資料龐大,從頭到尾更新一次,就算網站沒有更新資料,也會被重新蒐集一次網頁資料,所需時間要一兩個月以上。

 

增量收集網頁

針對各個不同權重的網站,給予不同的拜訪次數及拜訪時間的長度。因此為什麼常常說網站要持續穩定的更新原因就在這,更新越是頻繁那蜘蛛拜訪的時間就越快。相反地,如果每次來拜訪你的網站,都沒發現新的資料,那搜尋引擎來的速度就會越來越慢。

 

搜尋引擎大更新的週期還存在嗎?

大更新在數年前幾乎是各seo服務公司的痛點,每當一次大更新網站排名就會來一各大洗牌,伴隨每一次大更新,搜尋引擎都會加入新的計算標準,造成更新後的網站排名變化相當大。但是近來隨著搜尋引擎的規則越來越穩定,硬體設備越來越強,近來大更新照成排名劇烈跳動的情況已經很少見了!

 

離種子站點越近,權重越高,越遠權重越低

當搜尋引擎執行定期收集的時候,會尋找一個種子站點當成起點,這個種子站點具有高權重及入口網站的特性(具有豐富大量連結的外連網址指向權重高的網站),例如雅虎目錄,DMOZ,距離種子站點越近則權重越高,這也就是pr值的基本公式,假設從種子站點開始,需要三個點擊才能到達a網站,而b網站需要五次點擊,那a網站的權重就高於b網站。

Ps.這也就是為什麼要把網址登錄到入口網站的主要原因

 

深度優先?廣度優先?

深度優先:

當你網站權重高的時候,搜尋引擎就對該網站執行深度優先。

搜尋引擎給予高權重的網站抓取時間是相當長的,因為搜尋引擎任認為該網站內容具有價值性,他會希望能夠抓取該網站上所有的資料,因此會從首頁上的第一個連結往下抓取,一直到抓取完後,再回到首頁上的第二個連結往下抓取,如此循環。

 

搜尋引擎深度抓取網站頁面方式

 

廣度優先:

當權重較低的網站或新建網站,搜尋引擎就對該網站執行廣度優先。

通常搜尋引擎給予權重低的網站,只有很短的收錄時間,因此需要在短時間內抓取比較重要的頁面,而通常首頁是一個網站最重的位置,會首先被抓取,然後往導覽列抓取,假設這個時候時間已經到了,那蜘蛛就只會蒐集了首頁資料就離開。

搜尋引擎廣度抓取網站頁面方式

 

因此,我們經常會看到許多新的網站在搜尋引擎收錄的資料裡,只有一個首頁的原因就在這裡。

 

不想被搜尋引擎收錄怎麼辦?

基本上搜尋引擎會對你所有的網頁進行收錄,而有些網站我們是不希望被搜尋引擎抓取的,例如:後台登入頁面(避免駭客知道後台入口)、動態網址頁面(避免重覆網頁過多),甚至某些網站是供公司內部人員使用,完全不想被搜尋引擎收錄,則可以透過上傳robots.txt的方式來告訴搜尋引擎哪些頁面抓取,哪些頁面不抓取!

 

建設中的網站,務必使用robots禁止搜尋引擎抓取

邊建設網站邊上傳網頁,容易被搜尋引擎丟進沙盒裡!對後期seo優化來說是很大的傷害!

這是需要特別注意的地方,經常看到許多網頁設計人員或是程式設計人員,邊建設網站邊上傳網站內容,而這個時候就會產生傷害,「網站建設中」通常與之後建好的網站內容無關,而整個建設的過程中,會頻繁修改網站內容,造成網站內容不明確,搜尋引擎無法了解該網站是什麼內容,就會把該網站丟到沙盒中,等恢復排名是數月後的事情!

 

建立網站地圖

網站地圖可以大幅度增加收尋引擎收錄的好作法,因為被收錄頁面越多,網站權重就會越高,上傳一個網站地圖,就等於給了蜘蛛一個地圖,讓他能快速的爬行所有網頁(蜘蛛爬行時間有限),同時可以解決廣度優先抓取時的缺點,網站地圖可以帶領蜘蛛到達比較深入的頁面。

發佈留言